昨天知道資料有無缺值跟重複的大致長相,今天回顧一下昨天的基礎分析,跟了解一下欄位間相關性
近一步探究資料間相關性
df_train.PassengerId.nunique() == df_train.shape[0]: 查看Id是否有重複
np.intersect1d: 查看訓練與測試集ID是否有重複
df_train.count().min() == df_train.shape[0] and df_testset.count().min() == df_testset.shape[0]: 由欄位個數比對是否有缺值
沒有的話印出We do not need to worry about missing values.
否則印出訓練與測試集哪些欄位有多少缺值
接下來我們針對欄位間做相關性比較,過程中我們會一直用到幾個關鍵詞
資料欄位.groupby(依某欄位做group, as_index=True/False).mean().sort_values(by=某欄位, ascending=True/False))
as_index的作用是控制聚合輸出是否以組標簽為索引值,False顯示索引項,此時可以通過df.loc[0]取得值,True則相反
ascending參數的默認值是True,按照升序排序,當傳入False時,按照降序進行排列
FeatureCorreate: 這個方法會繪製兩兩參數間相關係數圖,顏色越淺正相關性越大,越深是負相關性越大
Kaggle中缺值填補與文字欄位轉換是一大重點,這邊要多累積經驗與正確判斷力,一開始分析錯誤導致上傳結果不理想也是常有的
https://www.cnblogs.com/Allen-rg/p/10546642.html
https://zhuanlan.zhihu.com/p/35013079